Extraire le texte avec des méthodes « rustiques » : les expressions régulières.
Objectifs
La BàO 1 permet de parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).
Objectifs
-
-
Extraire le texte avec des outils adaptés (Perl & Python).
-
Intégrer ces traitements dans le programme de parcours d'une arborescence de fils RSS.
-
Préparer 2 types de sortie : texte brut et texte structuré en XML.